BOITES A OUTILS 

 étapes d'une chaine de traitement de fils rss pour l'extraction et l'analyse de patrons morphosyntaxiques




PRESENTATION DU PROJET :


Etudiantes en Master Traitement automatique des langues à l'Institut national des langues et civilisations orientales (Inalco), nous avons réalisé un projet dans le cadre du cours donné par M. Serge Fleury, "Programmation et projet encadré", consistant à élaborer les différentes étapes d'une chaine de traitements de fils rss issus du journal Le Monde sur l'année 2014. Le but final était de pouvoir extraire de ces données des patrons morphosyntaxiques (par exemple, un nom, suivi d'un adjectif). Cela permet ainsi d'en déduire des cooccurences selon le domaine, la rubrique abordée.

Les différentes étapes de traitement que nous avons réalisées sont les suivantes : extraction de balises XML de l'information qui nous intéressait, étiquetage morphosyntaxique, extraction de patrons morphosyntaxiques à travers différentes méthodes, et enfin, l'analyse linguistique de nos résultats.

Si vous souhaitez connaître en détails tout le cheminement de notre travail, nos réflexions, nos difficultés, il vous est possible de consulter notre blog.


Merci à nos professeurs Messieurs Serge Fleury, Jean-Michel Daube et Rachid Belmouhoub pour leur accompagnement tout au long de ce projet. 

Bonne visite à  vous tous(tes) !


L'équipe-projet :

Lucille Blanchard

Manuela Dufour